寻找最新最佳的3D 视觉人工智能。浏览最全面的AI数据库,每日持续更新。
最新
VeeSpark 的 AI 视频生成器是一款功能强大的工具,旨在轻松将您的创意概念转化为引人入胜的视频。无论您是拥有完整的脚本、一系列故事板框架,还是仅仅拥有一个引人入胜的想法,我们的 AI 引擎都能高效地将您的输入转化为高质量的视频内容。这使其成为需要快速有效地制作引人入胜的视觉效果的内容创作者、营销专业人士和教育工作者的理想解决方案。该生成器简化了
VoxDeck 是一款人工智能演示文稿创作工具,它彻底改变了演示文稿的制作流程,将简单的文本提示或上传的材料转化为视觉效果惊艳的专业幻灯片。它擅长打造沉浸式、影院级的幻灯片体验,并运用 3D 图表、交互式视觉效果和逼真的头像等元素,动态地讲述和呈现内容。该工具旨在通过自动化大部分设计和创作流程,节省专业人士、教育工作者和商业用户的时间和精力,同时确保演
Ultra3D 是一个高效的 3D 生成框架,可在不影响质量的情况下显著加速稀疏体素建模。它利用紧凑的 VecSet 表示在第一阶段高效地生成粗略的对象布局,从而减少 token 数量并加速体素坐标预测。这种方法能够以 1024 的分辨率生成高分辨率 3D 图像,在视觉保真度和用户偏好方面均达到了最佳性能。
Ultra3D 的核
PhysX-3D 是一种端到端的基于物理的 3D 资源生成范式。它旨在通过提出 PhysXNet 来弥补基于物理标注的 3D 数据集中的关键空白。PhysXNet 是首个基于物理的 3D 数据集,系统地涵盖五个基本维度:绝对尺度、材质、可供性、运动学和功能描述。该数据集能够高效地从原始 3D 资源创建基于物理的资源,从而促进能够生成物理可信资源的 3D
SpatialTrackerV2 是一个用于 3D 点追踪的全新框架,可估算单目视频中任意 2D 像素的世界空间 3D 轨迹。与以往依赖离线深度和姿态估计器的方法不同,我们的方法将 3D 运动分解为场景几何、摄像机自运动和细粒度的逐点运动,所有这些都在一个完全可微分的端到端架构中进行。这种统一的设计支持跨多种数据源进行可扩展的训练,包括合成序列、摆拍的
Direct3D-S2 是一个基于稀疏体积的可扩展 3D 生成框架,可在显著降低训练成本的同时实现卓越的输出质量。它引入了空间稀疏注意力 (SSA) 机制,显著提升了扩散变换器 (DiT) 在稀疏体积数据上的计算效率。这使得模型能够有效地处理稀疏体积内的大型标记集,使前向传播速度提升 3.9 倍,后向传播速度提升 9.6 倍。
Pixel3DMM 是一款经过微调的 DINO ViT,用于逐像素表面法线和 UV 坐标预测。它专为单图像 3D 人脸重建而设计,并利用了 DINO 基础模型的潜在特征。该模型引入了定制的表面法线和 UV 坐标预测头,并在三个高质量的 3D 人脸数据集上针对 FLAME 网格拓扑进行训练,最终生成了超过 1000 个身份和 976,000 张图像。这使
字节跳动 Seed 1.5-VL 是一款强大高效的视觉语言基础模型,专为高级通用多模态理解和推理而设计。它以相对适中的架构实现了顶级性能,配备 532M 视觉编码器和 20B 活动参数 MoE LLM。该模型在复杂推理、OCR、图表理解、视觉基础构建、3D 空间理解和视频理解等多项功能方面均表现出色。
Seed1.5-
3DV-TON 是一款先进的视频试穿框架,旨在无缝替换视频序列中的服装,并提供高保真、时间一致的效果。传统的视频试穿方法往往难以应对复杂的服装图案和多样的体态,而 3DV-TON 则引入了一种基于漫射的、由纹理 3D 网格引导的方法。这种明确的 3D 引导机制使系统能够直接参考服装纹理运动,确保服装的过渡在整个视频中保持逼真和连贯。通过利用这些可动画化
LHM 是一个突破性的模型,旨在通过单张图像快速、高保真地重建可动画的 3D 人体。它利用多模态 Transformer 架构,通过注意力机制有效地编码人体位置特征和图像特征,解决了分离几何形状、外观和变形的复杂挑战。这能够保留服装的几何形状和纹理细节,并通过 3D 高斯分布生成逼真的 3D 虚拟形象。该模型引入了一种头部特征金字塔编码方案,用于聚合头
DreamActor-M1 是一款基于扩散变换技术的先进人体图像动画框架,能够通过单张静态图像创建高度逼真且富有表现力的动画。它能够对面部表情和全身动作进行精细的整体控制,使用户能够为肖像和全身镜头制作动画,且不会损失细节或画质。该模型采用混合运动引导系统,整合了隐式面部表征、3D 头部球体和 3D 身体骨骼,从而生成自然且能够保留身份的动画,捕捉细微
Hi3DGen 是一个尖端框架,旨在利用一种新颖的法线桥接技术,从单张 2D 图像生成高保真 3D 几何体。由于 RGB 图像中的域间隙、光照变化和固有的模糊性,传统方法通常难以准确再现细粒度的几何细节。Hi3DGen 通过将图像到几何体的生成过程分解为两个阶段来解决这些挑战:首先,使用注入噪声的双流网络从图像中估计详细的法线图,该网络可以稳定和锐化预
StdGEN 是一种创新的流程,旨在从单幅图像生成语义分解的高质量 3D 角色,显著推动虚拟现实、游戏和电影制作领域的发展。与以往分解能力有限、输出质量低下和优化时间冗长的方法不同,StdGEN 能够在短短三分钟内高效地生成复杂的 3D 角色,这些角色的语义成分(例如身体、衣服和头发)清晰可辨。其核心是语义感知大型重建模型 (S-LRM),这是一种基于
OccluGaussian 是一个先进的框架,旨在利用高斯溅射技术 (Gaussian Splatting) 推进 3D 场景重建和渲染。该方法将 3D 环境表示为一系列相互重叠的小椭圆体(称为高斯溅射),每个椭圆体都包含位置、颜色和透明度信息。通过利用这种方法,OccluGaussian 可以从多视角图像或视频帧生成高度精细、逼真的 3D 模型。该框
Uni3C 是一个统一的 3D 增强框架,旨在在视频生成过程中精确且同时控制摄像机和人体运动。传统方法通常将摄像机运动和人体动画视为独立的任务,这导致灵活性有限,并且需要大量带注释的数据集。Uni3C 通过引入即插即用的控制模块 PCDController 来应对这些挑战。该模块利用单目深度估计得到的未投影 3D 点云来实现细粒度的摄像机控制。该模块可
Seaweed 是由字节跳动开发的先进的视频生成基础模型,旨在通过文本提示、上传的图片或音频提示,生成高质量、逼真的视频。Seaweed 构建于高效的 70 亿参数架构之上,凭借卓越的语义理解和视觉保真度,能够生成连贯一致的多镜头长篇故事。该模型支持 1280x720 分辨率和 24 帧/秒的实时视频生成,非常适合寻求快速内容创作的创意专业人士和日常用
TaoAvatar 是一款先进的框架,用于实时生成逼真的全身 3D 语音虚拟人物。TaoAvatar 旨在无缝运行于移动设备和增强现实设备(包括 Apple Vision Pro 等高端平台),它创建的虚拟人物不仅视觉效果惊艳,而且互动性极强。该系统利用多视角图像序列构建拓扑一致的数字人,这些数字人可以完全控制姿势、手势和面部表情。这使得 TaoAva
UniAnimate-DiT 是一个先进的人体图像动画开源框架,利用大规模视频扩散变换器生成视觉冲击力强且时间一致性高的动画。UniAnimate-DiT 基于强大的 Wan2.1 视频扩散模型,引入了一种精简的方法,利用低秩自适应 (LoRA) 进行高效微调,显著降低了内存开销,同时保持了较高的生成性能。该系统旨在根据一系列目标姿势为单个参考图像制作
SynCity 是一个创新框架,无需训练即可根据文本提示生成复杂的沉浸式 3D 世界。与需要大量建模、纹理和训练的传统 3D 场景创建方法不同,SynCity 利用预训练的 2D 图像生成器和 3D 生成模型的优势,构建出细节丰富、内容丰富的广阔环境。该系统采用基于图块的方法,将世界的每个部分生成为由其相邻部分构成的 2D 图像,然后将这些图块转换为
Redraw 借助先进的自动化技术,帮助建筑师、设计师和工程师在 30 秒内创建逼真的渲染图。该云平台简化了室内/室外环境的工作流程,使用户能够增强现有渲染图,将草图转化为精美的视觉效果,并为各种建筑风格激发灵感。其直观的界面支持文本转图像功能,使专业人士能够用自然语言描述概念并获得即时可视化效果。学生、自由职业者和企业受益于可扩展的工具,这些工具可与